CLIP-seq RNA结合蛋白分析¶
一句话概述¶
分析eCLIP/iCLIP/HITS-CLIP数据鉴定RNA结合蛋白(RBP)的基因组结合位点,利用CTK/PureCLIP等工具进行peak calling和结合motif发现,揭示转录后调控网络。
核心知识点总览¶
| 知识点 | 关键内容 | 重要程度 |
|---|---|---|
| CLIP技术原理 | UV交联→IP→测序检测RBP-RNA互作 | ⭐⭐⭐⭐⭐ |
| eCLIP标准流程 | ENCODE标准eCLIP实验与分析 | ⭐⭐⭐⭐⭐ |
| Peak calling | PureCLIP/CLIPper/Piranha | ⭐⭐⭐⭐ |
| 交联位点识别 | iCLIP的truncation/HITS-CLIP的突变 | ⭐⭐⭐⭐ |
| Motif发现 | HOMER/MEME/DREME结合基序 | ⭐⭐⭐⭐ |
| 功能注释 | 结合位点在UTR/intron/CDS分布 | ⭐⭐⭐ |
| 与表达整合 | RBP结合与靶RNA调控关系 | ⭐⭐⭐ |
| 数据库资源 | ENCODE eCLIP/CLIPdb/POSTAR | ⭐⭐⭐ |
各步骤详解¶
第一步:CLIP技术变体与原理¶
白话解释: CLIP(CrossLinking and ImmunoPrecipitation)技术家族通过紫外交联将RNA结合蛋白"焊接"到其接触的RNA上,然后用抗体把目标蛋白及其结合RNA一起"钓"出来,最后测序鉴定RNA片段的身份和位置。不同变体(HITS-CLIP/iCLIP/eCLIP)在如何精确定位交联位点上有差异。
技术细节: - HITS-CLIP:交联位点在reads中表现为特征性突变(deletion/substitution) - iCLIP:利用逆转录在交联位点终止的特性,truncation site即为结合位点 - eCLIP:ENCODE优化版CLIP,增加size-matched input控制,减少背景噪声
# CLIP数据特点
# - 单端测序为主(eCLIP有PE版本)
# - reads长度短且不均一
# - PCR重复率高(需UMI去重)
# - 需要size-matched input作为背景控制
# 数据文件
# IP样本:RBP-bound RNA fragments
# Input/SMInput:size-matched input control
第二步:数据预处理¶
白话解释: CLIP数据预处理比常规RNA-seq更复杂:需要去除接头(通常在3'端)、去除PCR重复(使用UMI或坐标去重)、去除rRNA/重复序列的reads,然后比对到基因组。
技术细节:
# === eCLIP数据预处理(ENCODE pipeline)===
# 1. 接头去除(cutadapt,eCLIP有两轮接头)
cutadapt -a AGATCGGAAGAGC -O 1 --times 2 -m 18 \
-o trimmed_R1.fq.gz raw_R1.fq.gz
# 如果有UMI在R2中:
cutadapt -a AGATCGGAAGAGC -O 1 --times 2 -m 18 \
-o trimmed_R2.fq.gz raw_R2.fq.gz
# 2. UMI提取(如果有)
umi_tools extract --stdin=trimmed_R1.fq.gz --stdout=umi_R1.fq.gz \
--bc-pattern=NNNNNNNNNN # 10bp UMI
# 3. 比对(STAR)
STAR --runThreadN 16 \
--genomeDir star_index \
--readFilesIn umi_R1.fq.gz \
--readFilesCommand zcat \
--outSAMtype BAM SortedByCoordinate \
--outFilterMultimapNmax 1 \
--outFilterMismatchNmax 2 \
--outFileNamePrefix eclip_
# 4. UMI去重
umi_tools dedup -I eclip_Aligned.sortedByCoord.out.bam \
-S eclip_dedup.bam --method unique
# 或使用坐标去重(无UMI时)
samtools markdup -r eclip_sorted.bam eclip_dedup.bam
# 5. 同样处理SMInput
# ... 相同步骤处理 input 样本 ...
第三步:Peak calling¶
白话解释: Peak calling找出IP样本中reads富集的区域——这些就是RBP的结合位点。通过与input比较,排除非特异性背景富集。不同工具使用不同统计模型检测富集区域。
技术细节:
# === PureCLIP(基于HMM的精确交联位点检测)===
pureclip -i eclip_dedup.bam -bai eclip_dedup.bam.bai \
-g genome.fa \
-o pureclip_crosslink_sites.bed \
-or pureclip_regions.bed \
-nt 16 \
-iv 'chr1;chr2;chr3' \ # 用于训练参数的染色体
-dm 8 # merge distance
# === CLIPper(ENCODE eCLIP官方peak caller)===
clipper -b eclip_dedup.bam \
-s hg38 \
-o clipper_peaks.bed \
--processors 16
# 用input做归一化过滤
# 计算IP/Input的fold enrichment
# 保留 log2(IP/Input) > 3 的peaks
# === Piranha ===
Piranha -s eclip_dedup.bam \
-o piranha_peaks.bed \
-p 0.01 \
-b 50 # bin size
# === 使用IDR合并重复(ENCODE标准)===
idr --samples rep1_peaks.bed rep2_peaks.bed \
--input-file-type bed \
--output-file idr_peaks.bed \
--idr-threshold 0.01
第四步:iCLIP交联位点精确定位(CTK工具集)¶
白话解释: iCLIP利用逆转录在交联位点停止的原理,reads的5'端(truncation site)精确对应RBP的结合位点(单碱基分辨率)。CTK(CLIP Tool Kit)是专门处理iCLIP数据的工具集。
技术细节:
# === CTK iCLIP分析 ===
# CTK: https://github.com/chaolinzhanglab/ctk
# 1. 解析和去重
perl ctk/stripBarcode.pl -format fastq \
-len 5 raw.fq.gz stripped.fq.gz barcode.txt
# 比对后去PCR重复(基于barcode+mapping position)
perl ctk/tag2collapse.pl -v --random-barcode \
-EM 30 --seq-error-model em-local \
eclip_sorted.bed eclip_uniq.bed
# 2. 识别交联位点(CITS: CrossLink-Induced Truncation Sites)
perl ctk/tag2peak.pl -big -ss -v \
--valley-seeking --valley-depth 0.9 \
-p 0.001 \
eclip_uniq.bed eclip_peaks.bed \
--out-boundary eclip_boundaries.bed
# 3. 获取单碱基分辨率的交联位点
perl ctk/CITS.pl -big -ss -v \
-p 0.001 \
eclip_uniq.bed eclip_CITS.bed
第五步:结合Motif发现与功能注释¶
白话解释: RBP通常识别特定的RNA序列基序(motif)。从peak区域的序列中用motif发现工具可以找到这些基序。同时分析peak在基因结构中的分布(3'UTR/5'UTR/intron/CDS),可以推断RBP的功能模式。
技术细节:
# === Motif发现 ===
# 提取peak区域序列
bedtools getfasta -fi genome.fa -bed peaks.bed -fo peak_sequences.fa -s
# HOMER motif发现
findMotifsGenome.pl peaks.bed hg38 homer_output/ \
-rna -size 50 -mis 1 -p 8
# MEME/DREME
dreme -rna -p peak_sequences.fa -o dreme_output/
meme peak_sequences.fa -rna -oc meme_output/ -mod zoops -nmotifs 10 -minw 4 -maxw 10
# === 功能注释 ===
library(GenomicRanges)
library(GenomicFeatures)
# 加载基因注释
txdb <- makeTxDbFromGFF("gencode.v38.gtf")
peaks_gr <- import("peaks.bed")
# 注释peak位置
utr3 <- threeUTRsByTranscript(txdb, use.names = TRUE)
utr5 <- fiveUTRsByTranscript(txdb, use.names = TRUE)
cds <- cdsBy(txdb, by = "tx", use.names = TRUE)
introns <- intronsByTranscript(txdb, use.names = TRUE)
# 统计分布
n_3utr <- sum(countOverlaps(peaks_gr, unlist(utr3)) > 0)
n_5utr <- sum(countOverlaps(peaks_gr, unlist(utr5)) > 0)
n_cds <- sum(countOverlaps(peaks_gr, unlist(cds)) > 0)
n_intron <- sum(countOverlaps(peaks_gr, unlist(introns)) > 0)
cat(sprintf("3'UTR: %d (%.1f%%)\n5'UTR: %d (%.1f%%)\nCDS: %d (%.1f%%)\nIntron: %d (%.1f%%)\n",
n_3utr, n_3utr/length(peaks_gr)*100,
n_5utr, n_5utr/length(peaks_gr)*100,
n_cds, n_cds/length(peaks_gr)*100,
n_intron, n_intron/length(peaks_gr)*100))
第六步:与基因表达整合分析¶
白话解释: RBP结合到RNA上后可能促进或抑制其表达(影响稳定性/翻译/剪接等)。通过比较RBP敲除/过表达前后的转录组变化,与CLIP结合位点信息整合,可以确定RBP对靶标的调控方向和机制。
技术细节:
# === CLIP + RNA-seq整合 ===
# 1. 确定RBP的直接靶基因
# 有peak的基因 = 直接靶标
target_genes <- unique(peaks_annotated$gene_name)
# 2. 与RBP KD后的差异基因比较
kd_de_genes <- read.csv("RBP_knockdown_DEGs.csv")
# 直接靶标中有多少差异表达
direct_targets_de <- intersect(target_genes, kd_de_genes$gene[kd_de_genes$padj < 0.05])
cat(sprintf("Direct targets with expression change: %d / %d (%.1f%%)\n",
length(direct_targets_de), length(target_genes),
length(direct_targets_de)/length(target_genes)*100))
# 3. Fisher精确检验:RBP靶标是否富集于差异基因
all_genes <- unique(kd_de_genes$gene)
fisher_table <- matrix(c(
length(intersect(target_genes, kd_de_genes$gene[kd_de_genes$padj < 0.05])),
length(setdiff(target_genes, kd_de_genes$gene[kd_de_genes$padj < 0.05])),
sum(kd_de_genes$padj < 0.05) - length(direct_targets_de),
length(all_genes) - length(target_genes) - sum(kd_de_genes$padj < 0.05) + length(direct_targets_de)
), nrow = 2)
fisher.test(fisher_table)
# 4. 调控方向:3'UTR结合通常促降解
# 靶标在KD后上调 → RBP促进降解
# 靶标在KD后下调 → RBP促进稳定/翻译
实战命令速查¶
# eCLIP标准流程
cutadapt -a ADAPTER -m 18 -o trimmed.fq.gz raw.fq.gz
STAR --genomeDir index --readFilesIn trimmed.fq.gz --outSAMtype BAM SortedByCoordinate
umi_tools dedup -I sorted.bam -S dedup.bam
clipper -b dedup.bam -s hg38 -o peaks.bed
findMotifsGenome.pl peaks.bed hg38 motif_out/ -rna
面试常问点¶
Q1: eCLIP与iCLIP的主要区别?¶
A: eCLIP(enhanced CLIP)是ENCODE标准化的CLIP方案,使用size-matched input(SMInput)作为对照减少背景,实验效率高适合大规模应用。iCLIP利用逆转录终止特性在单碱基水平定位交联位点,分辨率更高但实验更复杂。eCLIP更适合genome-wide binding profiling,iCLIP更适合精确结合位点定位。
Q2: CLIP数据分析中如何处理PCR重复?¶
A: PCR重复在CLIP数据中尤其严重(起始RNA量少需大量扩增)。处理方法:(1) UMI去重(最可靠)——每个分子有唯一条形码;(2) 坐标去重——相同起止位置的reads只保留一条(可能误删真实独立分子);(3) 随机化策略——允许少量相同坐标reads保留。推荐使用UMI(eCLIP标准)。
Q3: 如何评估CLIP实验质量?¶
A: 关键指标:(1) IP效率——IP vs Input的reads数比值;(2) Peak数量——好的实验通常有数千到数万peaks;(3) Motif enrichment——已知RBP motif应在peaks中显著富集;(4) 重复一致性——IDR阈值下的重复peaks比例;(5) 信号分布——peaks应富集在RBP预期的功能区域(如剪接调控因子应在内含子-外显子交界处)。
Q4: 为什么需要SMInput控制?¶
A: Size-Matched Input去除了与RBP结合无关的RNA富集背景——某些高丰度RNA(rRNA片段、snRNA)或有特定二级结构的RNA在免疫沉淀步骤中非特异性共纯化。只有IP/SMInput显著富集的peaks才是真实结合位点。不使用input会产生大量假阳性。
Q5: ENCODE eCLIP数据如何获取和使用?¶
A: ENCODE已对>200个RBP做了eCLIP(K562和HepG2细胞系),数据公开在ENCODE Portal。可下载processed peaks(IDR filtered)直接使用,或下载BAM文件重新分析。CLIPdb和POSTAR数据库整合了多来源CLIP数据。使用时应注意细胞类型特异性——不同细胞的RBP结合谱可能不同。
易错点¶
1. 使用ChIP-seq工具直接分析CLIP数据¶
CLIP reads分布特征与ChIP不同(更短、更窄的peaks),且CLIP的背景模型不同。应使用CLIP专用工具(CLIPper/PureCLIP/Piranha)而非MACS2。
2. 忽略链特异性¶
RBP结合RNA有方向性。CLIP数据分析必须保持链信息(stranded analysis),否则会把对面链的信号误认为结合位点。
3. 不同CLIP变体的交联位点定义不同¶
HITS-CLIP中交联位点是reads中的deletion/mutation(CIMS),iCLIP中是reads 5'端(truncation site/CITS),eCLIP同样利用truncation特性(协议基于改进的iCLIP),但通常以peak-level enrichment结合SMInput归一化来定义结合区域。分析方法应匹配实验类型。
4. Peak过多或过少的参数调整¶
没有"正确"的peak数——不同RBP结合数百到数万个位点不等。应结合motif验证和KD实验确认peak set的生物学合理性。
5. 混淆直接靶标和间接效应¶
CLIP检测的是直接物理结合,但KD后的表达变化包含大量间接效应。只有CLIP target∩KD DE genes才是有调控证据的直接靶标。
补充知识¶
CLIP技术前沿¶
- TRIBE/HyperTRIBE:无需IP,通过ADAR-RBP融合蛋白标记结合位点
- STAMP:单细胞水平的RBP结合检测
- LACE-seq:低输入量CLIP
较新分析工具¶
- DEWSeq:Bioconductor包,基于滑动窗口+DESeq2统计框架的eCLIP/iCLIP peak calling,在灵敏度和特异性上优于传统方法(Schwarzl et al., NAR, 2024)
数据库资源¶
- ENCODE eCLIP:>200 RBPs,标准化peaks
- POSTAR3:整合的RBP binding atlas
- CLIPdb:CLIP数据库
- RBPmap:RBP结合位点预测
引用推荐¶
- eCLIP: Van Nostrand et al., Nature Methods, 2016
- iCLIP: König et al., Nature Structural & Molecular Biology, 2010
- PureCLIP: Krakau et al., Genome Biology, 2017
- CTK: Shah et al., Bioinformatics, 2017